So was nennt sich "Stopwortliste" und ist unerläßlich. Ich kann ja mal morgen bei uns im Projekt fragen, welche guten es für die deutsche Sprache allgemein so gibt.
Hmm, man könnte vielleicht die Verarbeitungsgeschwindigkeit optimieren, indem man vor der Tokenisierung einfach mal <.*?> rausschneidet, bzw. durch eine Tokengrenze ersetzt und das Zwischenergebnis zwischenspeichert.